在神经网络的文献中,Hebbian学习传统上是指Hopfield模型及其概括存储原型的程序(即仅经历过一次形成突触矩阵的确定模式)。但是,机器学习中的“学习”一词是指机器从提供的数据集中提取功能的能力(例如,由这些原型的模糊示例制成),以制作自己的不可用原型的代表。在这里,给定一个示例示例,我们定义了一个有监督的学习协议,通过该协议可以通过该协议来推断原型,并检测到正确的控制参数(包括数据集的大小和质量)以描绘系统性能的相图。我们还证明,对于无结构数据集,配备了该监督学习规则的Hopfield模型等同于受限的Boltzmann机器,这表明了最佳且可解释的培训例程。最后,这种方法被推广到结构化的数据集:我们在分析的数据集中突出显示了一个准剥离组织(让人联想到复制对称性 - 对称性),因此,我们为其(部分)分开,为其(部分)删除层引入了一个附加的“复制性隐藏层”,该证明可以将MNIST分类从75%提高到95%,并提供有关深度体系结构的新观点。
translated by 谷歌翻译
Training of neural networks is a computationally intensive task. The significance of understanding and modeling the training dynamics is growing as increasingly larger networks are being trained. We propose in this work a model based on the correlation of the parameters' dynamics, which dramatically reduces the dimensionality. We refer to our algorithm as \emph{correlation mode decomposition} (CMD). It splits the parameter space into groups of parameters (modes) which behave in a highly correlated manner through the epochs. We achieve a remarkable dimensionality reduction with this approach, where networks like ResNet-18, transformers and GANs, containing millions of parameters, can be modeled well using just a few modes. We observe each typical time profile of a mode is spread throughout the network in all layers. Moreover, our model induces regularization which yields better generalization capacity on the test set. This representation enhances the understanding of the underlying training dynamics and can pave the way for designing better acceleration techniques.
translated by 谷歌翻译
Graph is a highly generic and diverse representation, suitable for almost any data processing problem. Spectral graph theory has been shown to provide powerful algorithms, backed by solid linear algebra theory. It thus can be extremely instrumental to design deep network building blocks with spectral graph characteristics. For instance, such a network allows the design of optimal graphs for certain tasks or obtaining a canonical orthogonal low-dimensional embedding of the data. Recent attempts to solve this problem were based on minimizing Rayleigh-quotient type losses. We propose a different approach of directly learning the eigensapce. A severe problem of the direct approach, applied in batch-learning, is the inconsistent mapping of features to eigenspace coordinates in different batches. We analyze the degrees of freedom of learning this task using batches and propose a stable alignment mechanism that can work both with batch changes and with graph-metric changes. We show that our learnt spectral embedding is better in terms of NMI, ACC, Grassman distance, orthogonality and classification accuracy, compared to SOTA. In addition, the learning is more stable.
translated by 谷歌翻译
分布式形态框架的支持者提出了两个形态形成的两个层面:一个较低的单词形成,导致输入输出语义关系松散;和一个高层,导致了紧密的输入输出语义关系。在这项工作中,我们建议在希伯来语单词嵌入的背景下测试该假设的有效性。如果两个级别的假设得到了证实,我们期望最先进的希伯来语单词嵌入将编码(1)名词,(2)从其衍生而来(通过上级操作)和(3)和(3 )与名词相关的动词(通过名词根部的低级操作),以使得(2)在嵌入空间中应比相关动词(3)更接近名词(1)。是相同的名词(1)。我们报告说,这一假设通过希伯来语的四个嵌入模型来验证:FastText,Glove,Word2Vec和Alephbert。这表明单词嵌入模型能够捕获出于形态学动机的复杂而细粒的语义属性。
translated by 谷歌翻译
机器学习(ML)研究通常集中在模型上,而最突出的数据集已用于日常的ML任务,而不考虑这些数据集对基本问题的广度,困难和忠诚。忽略数据集的基本重要性已引起了重大问题,该问题涉及现实世界中的数据级联以及数据集驱动标准的模型质量饱和,并阻碍了研究的增长。为了解决此问题,我们提出Dataperf,这是用于评估ML数据集和数据集工作算法的基准软件包。我们打算启用“数据棘轮”,其中培训集将有助于评估相同问题的测试集,反之亦然。这种反馈驱动的策略将产生一个良性的循环,该循环将加速以数据为中心的AI。MLCommons协会将维护Dataperf。
translated by 谷歌翻译
我们证明,Littlestone Dimension $ d $的每一个在线学习的功能都可以接受具有有限信息复杂性的学习算法。为此,我们使用了全球稳定算法的概念。通常,这种全球稳定算法的信息复杂性是大但有限的,大致在$ d $中。我们还显示有改进的空间;对于规范的在线学习类,尺寸$ d $的仿射子空间的指标函数,信息复杂性可以在$ d $中以上对数。
translated by 谷歌翻译
时间图神经网络(时间GNN)已被广泛研究,在多个预测任务上达到了最新的结果。大多数先前作品采用的一种常见方法是应用一个层,该图层汇总了节点历史邻居的信息。朝着不同的研究方向迈进,在这项工作中,我们提出了TBDFS - 一种新颖的时间GNN架构。 TBDF应用一个层,该图层有效地将信息从时间路径聚集到图中的给定(目标)节点。对于每个给定的节点,将聚集分为两个阶段:(1)在该节点中结束的每个时间路径的单个表示,并且(2)所有路径表示都汇总为最终节点表示。总体而言,我们的目标不是在节点中添加新信息,而是从新角度观察相同的确切信息。这使我们的模型可以直接观察到面向路径的模式,而不是面向邻里的模式。与以前的作品中应用的流行呼吸优先搜索(BFS)遍历相比,这可以认为是时间图上的深度优先搜索(DFS)遍历。我们通过多个链接预测任务评估了TBDF,并显示出与最先进的基线相比的表现。据我们所知,我们是第一个应用Perimal-DFS神经网络的人。
translated by 谷歌翻译
文献中的最新结果表明,经过分类训练的神经网络的倒数第二层(倒数第二层)表示,展示了一种称为神经崩溃的聚类特性(NC)。我们研究训练深神经网络时,随机梯度下降(SGD)的隐式偏见,有利于低深度溶液。我们表征了有效深度的概念,该概念测量了使用最近级中心分类器可分离样品嵌入的第一层。此外,我们假设和经验表明,SGD隐含地选择了小有效深度的神经网络。其次,尽管即使不可能进行概括,但神经崩溃也会出现 - 我们认为,中间层中的\ emph {可分离性}与概括有关。我们得出了一个基于将网络的有效深度与与部分损坏的标签相同的数据集进行比较最小深度的限制。值得注意的是,这种结合提供了对测试性能的非平凡估计。最后,我们从经验上表明,在增加数据中随机标签的数量时,受过训练的神经网络的有效深度会单调增加。
translated by 谷歌翻译
理论深度学习的最新进展引入了训练期间发生的几何特性,超过了插值阈值 - 训练误差达到零。我们询问网络中间层中的神经崩溃,并强调了深网内部最近的中心不匹配的内部工作。我们进一步表明,这些过程既出现在视觉和语言模型体系结构中。最后,我们提出了一种随机变化损失(SVSL),该损失(SVSL)鼓励中间层中更好的几何特征,并改善了火车指标和泛化。
translated by 谷歌翻译
远程变压器模型取得了令人鼓舞的令人鼓舞的结果,即长上下文问题应答(QA)任务。这些任务通常需要超过一个长文件的推理,并且他们受益于识别一组证据跨度(例如,句子),为解决问题提供支持证据。在这项工作中,我们提出了一种用于装备远程变压器的新方法,其具有额外的序列级目标,以便更好地识别支持证据跨度。我们通过提出FineTuning的额外对比监督信号来实现这一目标,鼓励模型通过最大化问题证据相似性来明确歧视来自消极的证据句。拟议的额外损失表现出三种不同强大的长情绪变压器模型的一致改进,跨两个具有挑战性的问题回答基准 - 热杆菌和Qasper。
translated by 谷歌翻译